(網(wǎng)經(jīng)社訊)5月9日,騰訊AI實驗室旗下混元團隊宣布正式推出并開源全新多模態(tài)視頻生成工具Hunyuan Custom,該工具基于混元視頻生成大模型(Hunyuan Video)開發(fā),旨在通過多模態(tài)融合技術(shù)突破傳統(tǒng)視頻創(chuàng)作的邊界,為用戶提供高效、可控的定制化視頻生成解決方案。此次開源標志著騰訊在多模態(tài)AI領(lǐng)域的技術(shù)積累進一步向行業(yè)開放,助力數(shù)字內(nèi)容創(chuàng)作生態(tài)的全面升級。
核心優(yōu)勢:多模態(tài)融合重塑視頻生成范式
據(jù)網(wǎng)經(jīng)社(qjkhjx.com)獲悉,Hunyuan Custom的核心競爭力在于其對文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)的深度融合能力。與傳統(tǒng)模型僅支持單一或有限模態(tài)輸入不同,該工具能夠同時處理多元信息,并轉(zhuǎn)化為邏輯連貫、視覺自然的視頻內(nèi)容。通過深度學習算法對多維度數(shù)據(jù)的協(xié)同解析,Hunyuan Custom在生成質(zhì)量、動態(tài)控制及場景適配性上實現(xiàn)了顯著提升。例如,用戶只需輸入一張圖片和簡短文本描述,Hunyuan Custom即可生成包含復雜動作、服飾變化及場景轉(zhuǎn)換的高質(zhì)量視頻,徹底打破傳統(tǒng)模型在人物一致性及場景連續(xù)性上的技術(shù)瓶頸。
四大生成模式解鎖多元創(chuàng)作場景
為滿足不同應用場景的需求,Hunyuan Custom提供了四大核心功能模塊:單主體視頻生成、多主體視頻生成、單主體視頻配音及視頻局部編輯。目前,單主體生成能力已率先在騰訊混元官網(wǎng)“模型廣場-圖生視頻-參考生視頻”板塊開源上線,用戶可直觀體驗“圖片+文本”驅(qū)動的個性化視頻創(chuàng)作。其余功能模塊預計于5月內(nèi)陸續(xù)開放,進一步釋放多模態(tài)創(chuàng)作的潛力。 在單主體生成模式下,工具通過深度學習人物身份特征,可實現(xiàn)同一主體在不同動作、服飾及場景中的無縫轉(zhuǎn)換,確保視頻敘事連貫性;多主體生成則支持多角色協(xié)同演繹,滿足劇情類視頻的復雜需求。此外,音頻驅(qū)動模式可將人物圖像與音頻信號實時同步,生成音視頻一體的數(shù)字人表演,廣泛應用于虛擬直播、客服交互等場景;視頻驅(qū)動模式則通過智能替換或插入技術(shù),實現(xiàn)任意視頻片段的創(chuàng)意重構(gòu),為內(nèi)容二次創(chuàng)作提供全新工具。
技術(shù)突破:破解人物一致性與場景變換難題
針對傳統(tǒng)視頻生成模型在人物特征保持及場景動態(tài)切換上的局限性,Hunyuan Custom通過兩項關(guān)鍵技術(shù)實現(xiàn)突破。首先,模型引入“多模態(tài)特征錨定”機制,通過圖像與文本的交叉驗證,精準鎖定主體身份信息,即使在動作、服飾及背景劇烈變化的情況下仍能維持人物一致性。其次,采用“動態(tài)場景生成網(wǎng)絡(luò)”,模型可根據(jù)文本語義自動構(gòu)建適配場景,并通過物理引擎模擬實現(xiàn)環(huán)境交互的真實感。例如,用戶輸入“女孩在雨中奔跑”的描述,模型不僅生成連貫動作,還能同步渲染雨滴軌跡、地面反射等環(huán)境細節(jié),大幅提升視頻逼真度。
開源生態(tài)構(gòu)建:加速AI創(chuàng)作民主化進程
騰訊混元團隊表示,Hunyuan Custom的開源旨在推動AI創(chuàng)作技術(shù)的普惠化發(fā)展。目前,單主體生成模塊已通過官網(wǎng)開放API接口及模型代碼,開發(fā)者可自由調(diào)用或二次開發(fā)。后續(xù)模塊開源后,將進一步降低視頻創(chuàng)作的門檻,賦能廣告營銷、影視制作、教育培訓等行業(yè)。團隊同時承諾持續(xù)優(yōu)化模型性能,并通過社區(qū)反饋機制完善工具生態(tài),構(gòu)建開放協(xié)作的技術(shù)發(fā)展模式。